"""
# sortBy 方法
# sortBy 方法可以对数据源中的每一个元素进行排序操作
# 参数1：排序规则，函数
# 参数2：升序还是降序，True 升序，False 降序
# 参数3：排序的分区数，默认和数据源的分区数一致
"""
from pyspark import SparkContext, SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/dev/python/python310/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("sortBy")
sc = SparkContext(conf=conf)
# 创建 RDD
rdd = sc.parallelize([("a", 3), ("b", 1), ("c", 2)])
rdd2 = rdd.sortBy(lambda x: x[1], ascending=True, numPartitions=1)
rdd3 = rdd.sortBy(lambda x: x[0], ascending=True, numPartitions=1)
print(rdd2.collect())
print(rdd3.collect())
sc.stop()